15.9.2021

Überblick

  1. Motivation
  2. Inferenzstatistik
  3. Satz von Bayes
  4. Bayes’sche Statistik-Pakete in R
  5. IRT und GLM
  6. Bayes’sche IRT in R

Was

  • Methodik: Bayes’sche IRT-Modellierung
  • R-Package-Premiere: birtms

Was nicht

  • Funktionsweise unterschiedlicher MCMC-Algorithmen
  • Vielfalt verfügbarer Prior
  • fachdidaktische Erkenntnisse

Motivation

  • Professionswissens von Chemie-Studierenden mit Lehramtsoption
  • deklarativ-fachdidaktischer Wissenstest
Itemstamm 059MC

Motivation

  • Professionswissens von Chemie-Studierenden mit Lehramtsoption
  • deklarativ-fachdidaktischer Wissenstest
Antwortoptionen 059MC
Grafik aus Zhang, Miller & Cannady (2011)

Motivation

  • Professionswissens von Chemie-Studierenden mit Lehramtsoption
  • deklarativ-fachdidaktischer Wissenstest
  • Bayes’sches MIRT-Modell ab 100 Personen (Fujimoto & Neugebauer, 2020)
Biasreduzierender Effekt informativer Priors; Grafik aus Fujimoto & Neugebauer (2020)

Motivation

  • Professionswissens von Chemie-Studierenden mit Lehramtsoption
  • deklarativ-fachdidaktischer Wissenstest
  • Bayes’sches MIRT-Modell ab 100 Personen (Fujimoto & Neugebauer, 2020)
  • Bayes’sche IRT Modellierung mit brms (Bürkner, 2019)
Posterior Predictive Model Check (PPMC); Grafik aus Bürkner (2020)

Motivation

Shiny-App für den direkten Modellvergleich

Motivation

  • Professionswissens von Chemie-Studierenden mit Lehramtsoption
  • deklarativ-fachdidaktischer Wissenstest
  • Bayes’sches MIRT-Modell ab 100 Personen (Fujimoto & Neugebauer, 2020)
  • Bayes’sche IRT Modellierung mit brms (Bürkner, 2019)
  • Marginal Likelihood für Modellvergleiche (Merkle, Furr & Rabe-Hesketh, 2019)
Informationskriterien unter Nutzung der conditional und marginal likelihood; Grafik aus Merkle, Furr & Rabe-Hesketh (2019)

Inferenzstatistik

Münzwurf: 0, 1, 1, 1, 1, 1, 1, 1, 1

\(X \sim binom(n, p)\)

Aspekt Klassisch / Frequentistisch Bayes’sch / Bayesianisch
Wahrscheinlichkeit relative Häufigkeit Grad persönlicher Überzeugung
Vorannahme Münze fair Münze fair (SD = .10)

Inferenzstatistik

Münzwurf: 0, 1, 1, 1, 1, 1, 1, 1, 1

\(X \sim binom(n, p)\)

Aspekt Klassisch / Frequentistisch Bayes’sch / Bayesianisch
Wahrscheinlichkeit relative Häufigkeit Grad persönlicher Überzeugung
Vorannahme Münze fair Münze fair (SD = .10)
P(X=1) = 0.89 [0.69, 1]
Hypothesentest 0.021
Entscheidung nicht fair

Inferenzstatistik

Münzwurf: 0, 1, 1, 1, 1, 1, 1, 1, 1

\(X \sim binom(n, p)\)

Aspekt Klassisch / Frequentistisch Bayes’sch / Bayesianisch
Wahrscheinlichkeit relative Häufigkeit Grad persönlicher Überzeugung
Vorannahme Münze fair Münze fair (SD = .10)
P(X=1) = 0.89 [0.69, 1]
Hypothesentest 0.021
Entscheidung nicht fair
Grafik erstellt mit JASP Team (2020)

Inferenzstatistik

Münzwurf: 0, 1, 1, 1, 1, 1, 1, 1, 1

\(X \sim binom(n, p)\)

Aspekt Klassisch / Frequentistisch Bayes’sch / Bayesianisch
Wahrscheinlichkeit relative Häufigkeit Grad persönlicher Überzeugung
Vorannahme Münze fair Münze fair (SD = .29)
P(X=1) = 0.89 [0.69, 1]
Hypothesentest 0.021
Entscheidung nicht fair
Grafik erstellt mit JASP Team (2020)

Inferenzstatistik

Modell: \(X \sim binom(n, p)\)

Beendigung der Datenerhebung nach:

  1. 9 Würfen
  2. 8 mal Kopf
  3. 1 Minute

p-value: Die Wahrscheinlichkeit in einer Stichprobe der hypothetischen Population ein Ergebnis zu erhalten, dass mindestens so extrem wie das vorliegende Ergebnis ist, wobei die beabsichtigten Erhebungs- und Auswertungsmethoden berücksichtigt werden müssen.

Grafik aus Kruschke (2015)

Inferenzstatistik

Grafik nach Kruschke (2015)


zweite Münze 24 mal werfen: \(p\left(\frac{z_1}{N_1}\right) = 0.063\)
zweite Münze 12 mal werfen: \(p\left(\frac{z_1}{N_1}\right) = 0.103\)

Inferenzstatistik

  • sind Nägel fair?
  • 7 von 24 stehen
  • verwerfen die Hypothese nicht!
  • Vorwissen berücksichtigen
    • Berücksichtigung seltener Ereignisse
    • bedeutsame Parametervergleiche
    • Datensätze erweitern
  • Einfluss des Priors nimmt mit Datenmenge ab
https://xkcd.com/1132/

Inferenzstatistik

  • Ablehnen der Nullhypothese spricht nicht für Alternativhypothese
  • Bayes-Faktor: pro H0, ungewiss, pro H1
  • Informationsverlust
    • behindert Metaaanalysen
  • Parameterwerte und CIs statt NHST?
    • Effektstärke
    • CI enthält Werte, die von NHST nicht abgelehnt würden
    • frequentistische CIs auch vom Sample Space abhängig
    Grafik aus Kruschke & Liddell (2018)
Grafik aus Kruschke & Liddell (2018)

Inferenzstatistik

Mehls Paradox ROPE

Grafik aus Waning, Montagne, McCloskey & Maki (2001)

Inferenzstatistik

Grafik aus Waning, Montagne, McCloskey & Maki (2001)

Inferenzstatistik Backlog

Klassisch

  • Parameter haben einen festen Wert, den wir schätzen wollen
    • ein CI sagt nicht, dass der Wert einer Verteilung unterliegt, sondern nur, in welchem Beeich der wahre Wert liegen sollte
  • \(\alpha\)-Fehler Korrektur
    • in höchstens \(\alpha \, %\) der Wiederholungen ist überhaupt ein Parameter außerhalb der CI

Bayes’sch

  • CI: Kredibilitätsintervall Ergebnis von Simulation
    • Parameterverteilung zeigt, die wahrscheinlichten Werte an
    • Breite \(\sim\) Unsicherheit
    • HDI statt equallt tailed CI
    • Median oder Modalwert statt Mittelwert
    • Passendes zentrales Maß anhand der Parameterverteilung wählbar
    • Bimodale und schiefe Verteilungen identifizierbar
  • Hardware
    • braucht mehr Rechenzyklen
    • braucht mehr Arbeitsspeicher (oder noch mehr Zeit)
    • braucht mehr Festplattenspeicher
  • können Unsicherheit in Folgeanalysen mitberücksichtigen
  • prädiktive Modelle
  • Messunsicherheit berücksichtigen
  • fehlende Werte imputieren
  • nutzen wir die Möglichkeit der Priors in den IRT-Modellen schon?
  • likelihood / Posterior unabhängig von Testanzahl
  • poweranalysis by simulation
  • PPMC mit oder ohne p-value?

Satz von Bayes

\[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}\]

Angewendet auf Modelle: \[ P(Parameter|Daten) = \frac{P(Daten|Parameter) \cdot P(Parameter)}{P(Daten)}\]

Gesprochen: \[ \mathbf{Posterior\:Wahrs.} = \frac{\mathbf{Modellfunktion} \cdot \mathbf{Prior\:Wahrs.}}{\mathbf{Normierungsfaktor}}\]

Bayes’sche Statistik-Pakete in R

Modelle fitten

  • Stan:
    • rstan
    • rstanarm
    • brms
  • JAGS: rjags
  • rethinking
  • BayesFactor
  • blavaan

Modelle auswerten

  • tidybayes
  • loo
  • bayestestR
  • coda, plotMCMC
  • bridgesampling

IRT und GLM

Hypothesentests und Modellvergleiche

  • Hypothesen-Modell-Beziehung N:M
  • Modell verwerfen \(\nLeftrightarrow\) Hypothese verwerfen

\[\begin{align} y &\sim item + person + fw \\ y &\sim item + person + fw^2 \\ y &\sim item + person + fw*rpk \end{align}\]

\(fw\): Fachwissen
\(rpk\): Repräsentationskenntnis

Grafik aus McElreath (2020)

Modellvergleiche

  • Kruschke schlägt vor, mehrere Modell in einem Obermodell zusammenzufassen
    • in Stan schwerlich möglich, da keine diskreten Variablen gezogen werden
  • BayesFaktor via BridgeSampling braucht viele Posterior Samples
    • Bayes-Faktor prior-sensibel
  • Bürkner favorisiert PSIS LOO-CV
    • conditional LOO bevorzugt komplexere Modelle
    • marginal LOO weist auf Probleme mit PSIS hin
    • LOO oder k-fold können bei komplexeren Modellen sehr lange dauern
<

Bayes’sche IRT

  1. Daten vorbereiten
  2. Modell formulieren
  3. Konvergenz der MCMC-Chains prüfen (\(\hat{r}\), plots)
  4. Posterior Predictive Model Checking

Modellvergleiche

  • Dimensionalitätsanalysen
  • Prädiktorenwahl
  • Wirkungsmodelle prüfen (DAGs)

Parameterinspektion

  • Itemselektion
  • DIF
  • Effektstärken
  • \(\dots\)

Bayes’sche IRT in R

EM Algorithmus

  • bis zur Konvergenz:
    • Wähle SD der random effect Verteilung
    • Wähle random effect Werte
    • maximiere die Likelihood
      (analytisch oder per Newton-Verfahren)
  • Präsentiere beste Punktschätzer
  • Präsentiere Schätze CI

MCMC Algorithmus

  • Burn-in / warmup-Pahse
  • Sampling-Phase
  • Präsentiere Postsamples
  • Deskriptive Statistik der Postsamples

Schritte: - Wähle Parameter in der Imgebung - berechne Likelihood - besser: akzeptiere Werte - schlechter: werfe biased Münze - Kopf: akzeptiere Werte - Zahl: verwerfe Werte, wähle neue

Bayes’sche IRT in R

Modelle spezifizieren

  • Stan syntax:
    • rstan
    • edstan
  • GLM syntax:
    • brms
  • Keyword based
    • birtms

Modelle auswerten mit birtms

  • marginal loglikelihood Modellvergleiche
  • bayes’sche Variante des \(R^2\)-Bestimmtheitsmaß
  • Item Characteristic Curves
  • Odds Ratio Heatmaps
  • Itemparameterverteilungen darstellen
  • Posterior Predictive Model Checks
  • Persone Response Functions
  • Wrightmap

birtms

Ausblick

Funktionalitäten

  • testlets
  • Shiny-App
  • 3pl
  • Itemkriterien (vgl. Scharl & Gnambs, 2019)
  • hierarchic
  • ordinal
  • multidim
  • multivariate
  • 4pl
  • noncompensatory

Paket

  • Dokumentation
  • Vignetten
  • Videotutorials
  • Performance
  • Vereinheitlichung
  • Abhängigkeiten reduzieren
  • Mehrsprachigkeit

Zusammenfassung

  • Aufruf
    • zur Zusammenarbeit
    • zur kritischen Prüfung

Slide with R Output

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Slide with Plot

Bürkner, P.-C. (2019). Bayesian Item Response Modeling in R with brms and Stan. Verfügbar unter: https://arxiv.org/pdf/1905.09501

Bürkner, P.-C. (2020). Analysing Standard Progressive Matrices (SPM-LS) with Bayesian Item Response Models. Journal of Intelligence, 8(1). https://doi.org/10.3390/jintelligence8010005

Fujimoto, K. A. & Neugebauer, S. R. (2020). A General Bayesian Multidimensional Item Response Theory Model for Small and Large Samples. Educational and psychological measurement, 80(4), 665–694. https://doi.org/10.1177/0013164419891205

JASP Team. (2020). JASP (Version 0.14.1)[Computer software]. Verfügbar unter: https://jasp-stats.org/

Kruschke, J. K. (2015). Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan (2. ed.). Amsterdam: AP Academic Press/Elsevier. Verfügbar unter: http://www.contentreserve.com/TitleInfo.asp?ID=38F45CF6-6B5C-433C-85F8-A3568420927D&Format=50

Kruschke, J. K. & Liddell, T. M. (2018). The Bayesian New Statistics: Hypothesis testing, estimation, meta-analysis, and power analysis from a Bayesian perspective. Psychonomic Bulletin & Review, 25(1), 178–206. https://doi.org/10.3758/s13423-016-1221-4

Kruschke, J. K. & Liddell, T. M. (2018). The Bayesian New Statistics: Hypothesis testing, estimation, meta-analysis, and power analysis from a Bayesian perspective. Psychonomic Bulletin & Review, 25(1), 178–206. https://doi.org/10.3758/s13423-016-1221-4

McElreath, R. (2020). Statistical Rethinking. Chapman and Hall/CRC. https://doi.org/10.1201/9780429029608

Merkle, E. C., Furr, D. & Rabe-Hesketh, S. (2019). Bayesian Comparison of Latent Variable Models: Conditional Versus Marginal Likelihoods. Psychometrika, 84(3), 802–829. https://doi.org/10.1007/s11336-019-09679-0

Scharl, A. & Gnambs, T. (2019). Longitudinal item response modeling and posterior predictive checking in R and Stan. The Quantitative Methods for Psychology, 15(2), 75–95. https://doi.org/10.20982/tqmp.15.2.p075

Waning, B., Montagne, M., McCloskey, W. W. & Maki, R. A. (2001). Pharmacoepidemiology: Principles and practice. New York: McGraw-Hill. Verfügbar unter: http://www.loc.gov/catdir/bios/mh041/00045207.html

Zhang, O., Miller, D. & Cannady, M. (2011). A Model Evaluation When Associations Exists Across Testlets under Small Testlet Size Situations. Verfügbar unter: https://ouzhang.me/pdf/2011NCME2_slide.pdf